Sommaire

Introduction

Un ONG (Organisme Non Gouvernemental) dispose d’une enveloppe de 10 millions de dollars afin d’aider 167 pays (à peu près tous les pays du monde) sur des plans humanitaires, structurels ou autres. A cet effet, nous disposons d’une base de données regroupant certains facteurs socio-économiques et sanitaires pour aider le directeur dans sa prise de décision. La problématique est la suivante: Comment allouer cet somme d’argent de manière stratégique et efficace? Comment déterminer les pays à aider en priorité? Pour se faire, nous procéderons d’abord au traitement des données. Ensuite, nous classifierons les pays en différents groupes. Et, finalement, nous déterminerons les pays à aider en priorité et proposeront une méthode d’allocation du montant que l’on devrait leur allouer à chaque pays.

I) Description du jeu de données

Description des variables et statistiques univariées

Notre jeu de données est composé de 167 lignes (les pats) et de 10 colonnes (les variables explicatives).

    enfant_mort        exports            sante           imports        
   Min.   :  2.60   Min.   :  0.109   Min.   : 1.810   Min.   :  0.0659  
   1st Qu.:  8.25   1st Qu.: 23.800   1st Qu.: 4.920   1st Qu.: 30.2000  
   Median : 19.30   Median : 35.000   Median : 6.320   Median : 43.3000  
   Mean   : 38.27   Mean   : 41.109   Mean   : 6.816   Mean   : 46.8902  
   3rd Qu.: 62.10   3rd Qu.: 51.350   3rd Qu.: 8.600   3rd Qu.: 58.7500  
   Max.   :208.00   Max.   :200.000   Max.   :17.900   Max.   :174.0000  
       revenu         inflation         esper_vie          fert      
   Min.   :   609   Min.   : -4.210   Min.   :32.10   Min.   :1.150  
   1st Qu.:  3355   1st Qu.:  1.810   1st Qu.:65.30   1st Qu.:1.795  
   Median :  9960   Median :  5.390   Median :73.10   Median :2.410  
   Mean   : 17145   Mean   :  7.782   Mean   :70.56   Mean   :2.948  
   3rd Qu.: 22800   3rd Qu.: 10.750   3rd Qu.:76.80   3rd Qu.:3.880  
   Max.   :125000   Max.   :104.000   Max.   :82.80   Max.   :7.490  
       pib_h       
   Min.   :   231  
   1st Qu.:  1330  
   Median :  4660  
   Mean   : 12964  
   3rd Qu.: 14050  
   Max.   :105000

Il ne semble pas y avoir de valeurs aberrantes dans les distributions et le jeu de données ne contient pas de valeurs manquantes. Ci-dessous la visualisation des distributions des variables à l’aide de Boxplot.

Tous les boxplots contiennent au moins une valeur que l’on peut qualifier d’atypiques et non d’aberrante en connaissance du jeu de données dû aux variabilités en terme de critères sociaux et économiques à l’échelle mondiale. De plus, il ne sera pas nécessaire de centrer et de reduire les variables car cela sera fait à l’aide des méthodes que nous employerons tel que l’ACP.

Pour comprendre les enjeux de l’ONG, nous porterons un bref regard sur la corrélation entre les variables que nous avons à disposition afin d’en savoir plus et d’en relever de potentielles problématiques.

corrélation des variables

Sans surprise, on voit qu’il y a de fortes corrélations (positives ou négatives) entre les couples de variables suivants :

  • enfant_mort et esper_vie |
  • enfant_mort et fert |
  • exports et imports |
  • exports et revenu |
  • revenu et esper_vie |
  • revenu et pib_h |
  • revenu et fert |
  • esper_vie et fert |
  • esper_vie et pib_h

Ci-dessous les visualisations de la variable enfant_mort enfant de la variable fert, de la variable revenu en fonction de la variable export et de la variable revenu en fonction de la variable esper_vie.

Nous avons une relation linéaire positive, la corrélation n’est pas signe de causalité mais il semblerait que le fléau du nombre de décès d’enfants ait un lien avec le nombre d’enfant par femme. Bien évidemment, d’autres facteurs rentre en compte. Un des but de l’ONG est sûrement de contribuer à une réduction du problème pour les pays concernées.

En raison d’une relation non linéaire nous avons pour ce graphique ajuster avec utilisé l’option “loess” pour lisser localement afin d’ajuster la courbe aux données. Il semblerait que les exports pour un pays puissent être une bonne stratégie pour augmenter leurs revenu net moyen par personne. Les pays ayant une faible valeur pour la variable revenu seront sûrement plus en difficulté.

Une nouvelle fois, nous avons ajusté la tendance aux données (relation logarithmique). Plus le revenu moyen par personne augmente jusqu’à un certain seuil et plus l’espérance de vie va augmenter. On peut remarquer qu’un pays dispose d’une espérance de vie moyenne de 30 ans ! Il s’agit de l’Haïti.

Ces quelques graphiques montre la disparité et l’importance même de trouver la meilleur stratégie possible pour aider les pays le plus équitablement.

II) ACP

L’analyse en composante principale sera utilisée pour explorer la structure sous-jacente des données et de mettre encore un peu plus en évidence les relations entre les variables et individus.

Axes 1 & 2 (axes principaux)

Sur l’axe principale (axe 1) expliquant 45% de l’information, les variables fert et enfant_mort s’oppose aux variables santé, esper_vie, pib_h et revenu. Plus un pays sera corrélé positivement à l’axe 1 et plus il aura de meilleur condition de “bien-être”.

L’axe 2 quant à lui met en avant les importations et exportations de biens et services par habitant. Montre la dépendance du pays au marché mondial.

Les variables les moins bien représentées sont santé et inflation. Leurs interprétations sera sûrement plus intéressante sur d’autres axes de l’ACP.

Axes 3 & 4 Dans cette dimension la variable sante est bien mieux représenté et porte l’axe 3 à gauche. Ainsi plus un pays se situe en haut à gauche et plus les dépenses totales de santé par habitant seront élevés.

Graphique des individus En connaissance du monde économique, on remarque que sur la gauche, il y a des pays que nous qualifieront de “pauvre” issu du continent africain et sur la droite des pays émergent et plus développé. Beaucoup de pays du continent africain à gauche du graphique.

L’axe 2 met en lumière des pays important et exportant beaucoup tels que le Luxembourg ou encore Singapour qui très connu pour son économie ouverte.

III) Cartographie

Ci-dessous nous avons représenter une carte mettant en évidence l’espérance de vie pour chacun des pays.

Plus l’espérance de vie des individus d’un pays est élevée, plus ce pays est foncé sur la carte. On note pour cette variable que ce sont en général les pays subsahariens et d’Asie centrale qui ont une espérance de vie moyenne la plus petite. Nous verrons par la suite avec des méthodes de classifications adéquat si nos hypothèses se révèlent vraies.

IV) Classification à l’aide de plusieurs méthodes

Afin de déterminer les meilleurs partitions pour regrouper nos pays, nous savons que la partition obtenue par CAH n’est pas nécessairement optimale et que la méthode des K-means dispose de deux inconvénients majeurs à savoir le choix du nombre de classes et que la partition dépend de l’initialisation. En connaissance de ces éléments, nous utiliserons une partition obtenue par CAH comme initialisation de l’algorithme de K-means dans un but de consolidation (classification conjointe). La CAH assurera la stabilité des classes trouvées. Cela devrait améliorer la partition finale obtenue car à chaque itération l’inertie intra diminuera.

CAH

La Classification Ascendante Hiérarchique (CAH) est une méthode de classification non supervisée qui vise à regrouper des individus en fonction de leur similarité. L’objectif de la CAH est de construire une hiérarchie de groupes emboîtés, en regroupant progressivement les individus les plus proches jusqu’à obtenir un seul groupe contenant tous les individus. La CAH permet ainsi de découvrir des structures sous-jacentes dans les données, en identifiant des groupes d’individus similaires qui peuvent ensuite être utilisés pour effectuer d’autres analyses ou prises de décisions.
Il existe différentes approches pour la classification ascendante hiérarchique: la stratégie du saut minimale, du saut maximale ou encore de la distance de Ward. Nous testerons les 3 et retiendrons la meilleure.

Choix de la stratégie à utiliser

Dendogramme avec la methode du saut minimal

Dendogramme avec la methode du saut maximal

Dendogramme avec la methode de WARD

Le choix entre l’algorithme de Ward, le saut minimal et le saut maximale dépend très souvent des caractéristiques des données et des objectifs de l’analyse finale.
L’algorithme de Ward peut être préférable lorsque l’objectif est de trouver des clusters compacts et homogènes, avec une variance minimale à l’intérieur de chaque cluster. Cette méthode peut être plus appropriée pour des données avec des clusters sphériques ou globulaires, où chaque groupe est relativement éloigné des autres groupes.
Le saut minimal est la distance minimum entre deux groupes qui est égale à la plus petite distance entre un élément de chaque groupe. Cette stratégie peut être préférable lorsque les clusters ont une structure allongée ou « en chaîne », ou lorsqu’il y a des valeurs aberrantes (outliers) qui peuvent biaiser l’algorithme de Ward.
Le saut maximale est la plus grande distance entre un individu du premier groupe et un individu du second groupe. La méthode est particulièrement utile lorsque les données contiennent des valeurs aberrantes ou des observations qui ont des variances très différentes des autres observations.
De par ces critères et les dendogrammes obtenues, nous choisirons la distance de Ward comme distance pour la CAH car il évite l’effet de chaine regroupant les individus de proches en proches (saut minimale et saut maximale) .
En outre, le Dendogramme de la distance de Ward est beaucoup mieux car il partitionne mieux.

Evolution de l’inertie

Le tracé de la perte d’inertie nous incite à choisir une partition en 3 (ou 4) groupes pour les trois graphiques d’évolution d’inerties. Nous en choisirons 3 pour l’étude.

Methode des centres mobiles

La variance inter-groupes de 79.2 est relativement élevée par rapport à la variance totale, ce qui peut indiquer une segmentation réussie. Représentation de nos 3 groupes sur un axe d’ACP.

Nous obtenons un premier partionnement pour nos 167 pays.

  [1] "Nous trouvons  109  pays pauvres. Ces pays sont: "
  [1] "Afghanistan ; Albania ; Algeria ; Angola ; Armenia ; Azerbaijan ; Bangladesh ; Belarus ; Belize ; Benin ; Bhutan ; Bolivia ; Bosnia and Herzegovina ; Botswana ; Brazil ; Bulgaria ; Burkina Faso ; Burundi ; Cambodia ; Cameroon ; Cape Verde ; Central African Republic ; Chad ; China ; Colombia ; Comoros ; Congo Dem. Rep. ; Congo Rep. ; Costa Rica ; Cote d'Ivoire ; Dominican Republic ; Ecuador ; Egypt ; El Salvador ; Eritrea ; Fiji ; Gabon ; Gambia ; Georgia ; Ghana ; Grenada ; Guatemala ; Guinea ; Guinea-Bissau ; Guyana ; Haiti ; India ; Indonesia ; Iran ; Iraq ; Jamaica ; Jordan ; Kenya ; Kiribati ; Kyrgyz Republic ; Lao ; Lebanon ; Lesotho ; Liberia ; Macedonia FYR ; Madagascar ; Malawi ; Maldives ; Mali ; Mauritania ; Mauritius ; Micronesia Fed. Sts. ; Moldova ; Mongolia ; Montenegro ; Morocco ; Mozambique ; Myanmar ; Namibia ; Nepal ; Niger ; Nigeria ; Pakistan ; Panama ; Paraguay ; Peru ; Philippines ; Romania ; Rwanda ; Samoa ; Senegal ; Serbia ; Sierra Leone ; Solomon Islands ; South Africa ; Sri Lanka ; St. Vincent and the Grenadines ; Sudan ; Suriname ; Tajikistan ; Tanzania ; Thailand ; Timor-Leste ; Togo ; Tonga ; Tunisia ; Turkmenistan ; Uganda ; Ukraine ; Uzbekistan ; Vanuatu ; Vietnam ; Yemen ; Zambia"
  [1] "Ensuite, nous trouvons  35  pays moyens. Ces pays sont: "
  [1] "Antigua and Barbuda ; Argentina ; Bahamas ; Bahrain ; Barbados ; Chile ; Croatia ; Cyprus ; Czech Republic ; Equatorial Guinea ; Estonia ; Greece ; Hungary ; Israel ; Italy ; Kazakhstan ; Latvia ; Libya ; Lithuania ; Malaysia ; Malta ; New Zealand ; Oman ; Poland ; Portugal ; Russia ; Saudi Arabia ; Seychelles ; Slovak Republic ; Slovenia ; South Korea ; Spain ; Turkey ; Uruguay ; Venezuela"
  [1] "Finalement, nous trouvons  23  pays riches. Ces pays sont: "
  [1] "Australia ; Austria ; Belgium ; Brunei ; Canada ; Denmark ; Finland ; France ; Germany ; Iceland ; Ireland ; Japan ; Kuwait ; Luxembourg ; Netherlands ; Norway ; Qatar ; Singapore ; Sweden ; Switzerland ; United Arab Emirates ; United Kingdom ; United States"
Ces résultats semblent réalistes. Ce qui confirme que notre classification est bonne.
Notre objectif est de trouvé les pays les plus dans le besoin, c’est pourquoi nous nous intéresserons aux individus du cluster 1 (représenté en noir). Une nouvelle classification sera réalisé uniquement sur ces individus.
Prècedement nous avons consolider nos classes, cette fois-ci on va vouloir conserver la hiérarchisation appliqué par la CAH.
Pour trouver les pays à aider en priorité, nous procéderons a la classification du groupe des pays pauvres. Ce qui résulte aux graphes suivants:

Le graphe du plan factoriel nous montre que les pays à aider en priorité sont ceux coloriés en noir. L’axe 1 de la nouvelle analyse en composante principale étant toujours déterminé par les facteurs variables fert et enfant_mort s’opposant aux variables esper_vie, pib_h et revenu alors les individus le groupe d’individu le plus à gauche peut être considérer comme le plus “pauvre”.

  [1] "le nombre de pays a aider en priorite est:  34"
  [1] "ces pays sont:"
  [1] "Afghanistan ; Benin ; Burkina Faso ; Burundi ; Cameroon ; Central African Republic ; Chad ; Comoros ; Congo Dem. Rep. ; Cote d'Ivoire ; Gambia ; Ghana ; Guinea ; Guinea-Bissau ; Haiti ; Kenya ; Kiribati ; Lao ; Lesotho ; Liberia ; Madagascar ; Malawi ; Mali ; Mauritania ; Micronesia Fed. Sts. ; Mozambique ; Niger ; Rwanda ; Senegal ; Sierra Leone ; Tanzania ; Togo ; Uganda ; Zambia"

V) Résultats de l’étude

Nous sommes parvenu à classer les pays en 3 groupes (allant des plus pauvres aux plus riches). Par conséquent, nous proposerons une méthode pour le calcul des allocations que l’ONG pourrait faire pour chaque pays. Une idée simple serait de d’attribuer exactement la même somme à tous les pays, ainsi chacun se verrait recevoir environ 59.880$ (10 000 000/167). Cependant, le but du directeur est d’aider non de manière égale mais équitable.

C’est pourquoi nous avons songer à utiliser la transformations d’attribut ordinale (groupe d’individus) qui seront considérés comme quantitatif en veillant à respecter les ordres.

Les résultats de nos calculs sont les suivants:
     groupes nbre_pays proportions ordres valeur_ordres allocation_de_classe
  1 groupe_1       109   0.6526946      1     0.8333333              5944112
  2 groupe_2        35   0.2095808      2     0.5000000              2838323
  3 groupe_3        23   0.1377246      3     0.1666667              1217565
    allocation_de_chaque_pays
  1                  54533.14
  2                  81094.95
  3                  52937.60
De ce fait, nous pensons que l’ONG devrait allouer un montant de 6 041 251 dollars au groupe des pays pauvres. Ce qui résultera a une allocation de 55 424.32 dollars en moyenne pour chaque pays du groupe.
Puis, il allouera un montant de 2 714 571 dollars au groupe des pays moyens. Ce qui résultera a une allocation de 77 559.17 dollars en moyenne pour chaque pays du groupe.
Enfin, un montant de 2 714 571 dollars sera alloué au groupe des pays riches. Ce qui résultera a une allocation de 54 093.71 dollars en moyenne pour chaque pays du groupe.
Nous remarquons que l’allocation moyenne du groupe des pays moyens est supérieur a celle des pays pauvre. En effet cette supériorité est normale. Elle est due au grand nombre de pays qui se trouvent dans le groupe des pays pauvres.

De ce fait, nous proposons l’allocution suivante au directeur avec une division de la classe des pays pauvre comme il l’a été fait avec la classification:

    les_groupes nombre_pays les_proportions les_ordres valeur_des_ordres
  1           1          34       0.2035928          1               0.9
  2           2          35       0.2095808          2               0.7
  3           3          40       0.2395210          3               0.5
  4           4          35       0.2095808          4               0.3
  5           5          23       0.1377246          5               0.1
    allocation_de_classe2 allocation_de_chaque_pays2
  1               3153122                   92738.89
  2               2598802                   74251.50
  3               2112917                   52822.93
  4               1455945                   41598.44
  5                679213                   29531.00

• Ainsi, le groupe 1 est le groupe des pays à prioritaire des 34 pays. Chacun de ses pays se verra allouer la somme de 92738.89 • Ainsi, le groupe 2 est le groupe 2 de la seconde classification(parmi les 109 pays pauvres). Chacun de ses pays se verra allouer la somme de 74251.50 • Ainsi, le groupe 3 est le groupe 3 de la seconde classification(parmi les 109 pays pauvres). Chacun de ses pays se verra allouer la somme de 52822.93 • Ainsi, le groupe 4 est le groupe 2 de la classification initiale. Chacun de ses pays se verra allouer la somme de 41598.44 • Ainsi, le groupe 5 est le groupe 3 de la classification initiale. Chacun de ses pays se verra allouer la somme de 29531.00

Carte finale des allocutions

Conclusion

En fin de compte, il est souvent utile d’essayer plusieurs méthodes d’agrégation pour déterminer la meilleure approche pour l’analyse de cluster spécifique.

Piste d’amélioration:

• Ajouter des critères de sélection. Ex: niveau d’éducation, taux urbanisation. D’autres variables offriront une image plus complète de la situation des pays
• Utiliser d’autres algorithmes pour fiabilisé les résultats et potentiellement trouver des résultats meilleurs.
• Créer un algorithme pouvant prédire la valeur d’allocation pour un pays en fonction de ses critères de sélections. Il faudra bien entendu vérifier la robustesse du modèle.